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„Może by zaorać co...” 
Sławomir Mrożek, Indyk 


I. UWAGI WSTĘPNE 


Zacznę od wyrażenia mojego przekonania, że badanie naukowe (a w przy- 
padku psychologii ma ono charakter empiryczny) nie polega na wrzucaniu do 
komputera różnych wyników i dopasowywaniu do nich testów istotności oraz 
miar korelacji tak długo, aż „coś” z tego wyjdzie. Jeżeli uzyskamy, przynajmniej 
z części wyników, jakieś istotne różnice czy związki korelacyjne, to wówczas 
skupimy się właśnie na nich i spróbujemy je „zrozumieć”. Kiedyś, w epoce 
przedkomputerowej (kto jeszcze pamięta te czasy?), taka strategia badawcza była 
mało efektywna, ale dziś, w dobie ,,panowania” pakietów statystycznych, mo- 
żemy bardzo szybko porównać wszystko z wszystkim i zobaczyć, co wyszło. 
Coraz bardziej doskonałe (szybkie!) komputery i coraz wnikliwsze (ale też prost- 
sze w obsłudze, przyjazne) statystyczne programy komputerowe sprawiają, że 
dziś student już na pierwszym roku studiów sięga po procedury, które przed laty 
były studentom niedostępne. Ktoś powie: postęp. Tak, ale czy to nie jest jakoś 
tak, jak z owym psem, którym kręci jego ogon? Tym, że nie zawsze użytkownik 
pakietu ma świadomość poprawności (w sensie zgodności materiału empirycz- 
nego z założeniami zastosowanej metody) użycia jakiejś metody statystycznej, 
raczej nikt sobie specjalnie głowy nie zawraca. Ważne, żeby „coś” wyszło i żeby 
można to było próbować opublikować. Takie postępowanie przypomina pisanie 
powieści od ostatniego rozdziału. 

Oczywiście przerysowałem problem, ale to wcale nie oznacza, że problemu 
nie ma. Problemem jest bowiem powstawanie coraz większej liczby prac przy- 
ziemnie empirycznych, bez oddechu teoretycznego, bez wizji. Są to prace o ni- 
czym, Smieciowe, ale — bywa — poprawnie „porachowane”. Mam poczucie, ze 
cofamy się do okresu wczesnego behawioryzmu i prymitywnego operacjonizmu, 
który negował wartość poznawczą teorii (to B. F. Skinner, 1950, napisał słynne 
zdanie: Theories are fun). W efekcie tacy badacze kierują się swoistą strategią 
(King, Minium, 2009, s. 357): „śmieci włóż i śmieci weź”. 

Zatem pisząc o analizie statystycznej wyników badań psychologicznych, nie 
mogę nie zacząć „od początku”. Badanie empiryczne bowiem, a w nim zawartą 
analizę statystyczną wyników, musi poprzedzać refleksja teoretyczna. Badanie 
służy falsyfikacji (czy konfirmacji) hipotez, które traktują o zmiennych teore- 
tycznych, które badacz w taki albo inny sposób zoperacjonalizował. Te zaś 
zmienne zostały uprzednio zdefiniowane na gruncie jakiejś teorii (ta zaś ma cha- 
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rakter empiryczny) i jakiegoś paradygmatu (mówiąc górnolotnie językiem Tho- 
masa Kuhna). I w tym sensie badanie, w którym analizowane są — powiedzmy — 
tylko dwie zmienne, nie jest gorsze od badania analizującego dwadzieścia 
zmiennych, o ile to pierwsze skupia uwagę na czymś, co jest rzeczywiście 
ważne. Doniosłość teoretyczna badania nie liczbą zmiennych jest mierzona. 
Dobrym przykładem jest badanie przeprowadzone przed ponad 100 laty przez 
Yerkesa i Dodsona, które — mimo „skromności” — do dziś jest cytowane w wielu 
podręcznikach psychologii na całym świecie. 

Od wielu już lat zajmuję się dydaktyką z zakresu metodologii i zastosowań 
statystyki w badaniach społecznych — na poziomie magisterskim i doktoranckim. 
Mam na ten temat swoje obserwacje i przemyślenia. Mam też swoje upodobania 
(np. do ANOVA). Śledzę literaturę przedmiotu oraz staram się — z myślą o stu- 
dentach i doktorantach — upowszechniać kluczowe prace z zakresu metodologii, 
psychometrii i zastosowań statystyki. Z mojej inicjatywy przetłumaczono na 
język polski dwa, jak mniemam — dobre, podręczniki statystyki adresowane do 
psychologów i pedagogów (por. Ferguson, Takane, 2003; King, Minium, 2009). 
Ten ostatni — co warto zauważyć — uwzględnia już wytyczne specjalnego zespołu 
ekspertów powołanego przez APA (por. Wilkinson i Task Force on Statistical 
Inference, 1999), który opracował zalecenia dla psychologów przygotowujących 
prace z wykorzystaniem analizy statystycznej danych (m.in. nacisk położono na: 
wskaźniki wielkości efektu, przedziały ufności jako alternatywę dla testowania 
hipotez zerowych oraz analizę mocy testu statystycznego! (także nowszy raport: 
JARS, 2008). Wydałem też zbiory tekstów z tego zakresu. 

Szczęśliwie się składa, że w ostatnich latach ukazały się także i polskie, do- 
bre opracowania dotyczące AS, pisane przez psychologów (a więc autorzy ro- 
zumieją potrzeby odbiorców). Mam na myśli zwłaszcza trzy opracowania: Gra- 
żyny Wieczorkowskiej i Jerzego Wierzbińskiego (2011) pt. Statystyka. Analiza 
badań społecznych; Piotra Francuza i Roberta Mackiewicza (2005) pt. Liczby nie 
wiedzą, skąd pochodzą. Przewodnik po metodologii i statystyce nie tylko dla 
psychologów; Sylwii Bedyńskiej i Anety Brzezickiej (2007) pt. Szatystyczny dro- 
gowskaz. Praktyczny poradnik analizy danych w naukach społecznych na przy- 
kładach z psychologii (z bogatą ilustracją zastosowań pakietu SPSS, wersja 14, 
do analizy danych psychologicznych). 


' Dla przypomnienia: moc testu (power of the test) jest prawdopodobieństwem odrzucenia 
hipotezy zerowej, gdy de facto jest ona fałszywa. Ponieważ prawdopodobieństwo nieodrzucenia 
fałszywej hipotezy zerowej wynosi Ø, zatem prawdopodobieństwo podjęcia przez badacza 
poprawnej decyzji odnośnie do fałszywej Hg wynosi: 1 — 8. 
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Ulubionym przez psychologów pakietem statystycznym jest SPSS. Warto 
tedy wydać tłumaczenie kapitalnego opracowania pióra Andy'ego Fielda (2009): 
Discovering statistics using SPSS (wyd. 3) — oparty na wersji 16 i 17 SPSS — 
czy: Christine P. Dancey i Johna Reidy (2011): Statistics without Maths for psy- 
chology (wyd. 5) — oparta na wersji 18 IBM”SPSS Statistics. Brakuje mi też 
opracowań, które wprowadziłyby do środowiska psychologicznego drugi pakiet 
statystyczny: STATA (por. www.stata.com). 

Środowisku psychologicznemu, zwłaszcza doktorantom, potrzebny jest do- 
bry podręcznik zaawansowanej analizy statystycznej (wielozmiennowej). Mój 
wybór pada na opracowanie Barbary G. Tabachnick oraz Lindy S. Fidel (2001): 
Using multivariate statistics (966 stron dużego formatu!). Pojawia się jednak 
zasadnicze pytanie: kto go przełoży i kto go wyda? 

Spróbuję więc podzielić się ze swoimi wątpliwościami i preferencjami. Liczę 
na to, że specjaliści o dużym doświadczeniu badawczym, którzy zechcieli przy- 
jąć Redakcji i moje zaproszenie do udziału w tej dyskusji, zwrócą uwagę (na- 
stąpi kumulacja wielkości efektu!) psychologów (zwłaszcza tych, którzy dopiero 
wkraczają na fascynującą drogę odkrywania nieznanego i doskonalenia narzędzi 
poznania) na właściwe stosowanie metod statystycznej analizy danych. Rzecz 
jasna mój szkic nie podejmuje wszystkich wątków; do tego potrzebna byłaby nie 
tak mała monografia. Starałem się jednak odsyłać do prac, które kiedyś czytałem 
(czytam) i do których często wracam. To zaplecze literaturowe może okazać się 
pomocne dla Koleżanek/Kolegów zaczynających dialog z psychologią naukową, 
a z metodologią i statystyką w szczególności. 

Analiza statystyczna, szeroko pojmowana, obejmuje nie tylko „oglądanie” 
danych empirycznych w sposób usystematyzowany i ich opis czy testowanie 
hipotez w modelu NHST (od ang. Null Hypothesis Statistical Testing), lecz także 
analizę mocy testów, problematykę projektowania sposobu wyłaniania próby 
z danej populacji, konstruowania modelu statystycznego badania (np. ANOVA/ 
MANOVA w odniesieniu do eksperymentu czy MCR (od ang. Multiple Corre- 
lation/Regression) w odniesieniu do badań korelacyjnych), procedur statystycz- 
nej kontroli zmiennych ubocznych i zakłócających, konstruowania przedziałów 
ufności, statystyczną stronę operacjonalizacji zmiennych i interpretacji wyników 
testów psychologicznych, ocenę istotności zmiennych niezależnych za pomocą 
wskaźników wielkości efektu (effect size), trafności zewnętrznej (zakres możli- 
wych uogólnień uzyskanych rezultatów badawczych) itd. 

Aby sensownie o niej rozmawiać, musimy wpierw ją odnaleźć w strukturze 
procesu badawczego. I od tego zacznę mój artykuł. 
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Il. STANDARDOWE UJECIE PROCESU BADAWCZEGO 
W PSYCHOLOGII 


1. Cechy poznania naukowego 


Jedną z konstytutywnych cech poznania naukowego (obok intersubiektyw- 
ności i powtarzalności ), odróżniającą je od innych rodzajów poznania, jest ta, 
która wskazuje na jego idealizacyjny charakter”. Jeżeli zatem odwołamy się do 
bliskiego mi ogólnego modelu poznania naukowego, jaki oferuje Idealizacyjna 
Teoria Nauki (ITN), to postępowanie typowego badacza wygląda — w wielkim 
skrócie — tak, że dokonuje on swoistej, myślowej deformacji rzeczywistości 
(i nie ma znaczenia, jaka to jest rzeczywistość), budując jej uproszczony, a więc 
w jakimś sensie karykaturalny obraz — tworząc jej idealizację. To, przy przy- 
jęciu określonych założeń idealizujących, można — właśnie przez oderwanie się 
od szczegółów — formułować twierdzenia idealizacyjne traktujące o zachodze- 
niu jakiejś zależności opisanej prawem nauki. Rzecz jasna twierdzenia te nie 
odnoszą się do obiektów materialnych występujących w warunkach rzeczywiście 
zachodzących w otaczającym nas świecie. Wiemy bowiem dobrze, że na przy- 
kład wahadła matematyczne nie istnieją realnie. Chcąc tedy przybliżyć nasze 
twierdzenie idealizacyjne do rzeczywistości, musimy poddać je swoistej proce- 
durze — odwrotnej do procedury idealizacji, a mianowicie musimy je skonkrety- 
zować. Dokonuje się to poprzez uchylanie kolejnych założeń idealizujących 
w procesie stopniowej konkretyzacji. Postępując konsekwentnie, otrzymamy 
serię modeli coraz bardziej adekwatnie przystających do rejestrowanych danych. 
Sekwencja stworzonych w ten sposób modeli (przez kolejne konkretyzacje wyj- 
ściowego, najbardziej abstrakcyjnego, modelu podstawowego) tworzy teorię 
idealizacyjną. 


2. Operacjonalizacja terminu: , istotność” 


Jednym z podstawowych pojęć ITN jest pojęcie istotności (por. Buczkowski, 
Nowak, 1979). W trakcie rozwoju [TN, a zwłaszcza gdy próbowano konfronto- 


? W sensie: Ajdukiewicz (1983). 
* W sensie: Wojciszke (2006, 2011), Rosenthal (1991), Neuliep (1991). 
W sensie: Nowak, 1980; Nowakowa, Nowak, 2000; Brzeziński, 1982; Gaul, 1990; Kra- 
jewski, 1998. 
W sensie: Nowakowa, Nowak, 2000; w odniesieniu do nauk behawioralnych: Brzeziński, 
1982; Gaul, 1990. 
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wać ITN z praktyką badawczą różnych szczegółowych nauk, wypracowano jej 
bardziej specyficzne parafrazy (por. Egiert, 2000; także w odniesieniu do nauk 
behawioralnych, a więc i psychologii, por. koncepcję protoidealizacji: Brzeziń- 
ski, 1982; Gaul, 1990). To na jej gruncie nadaje się pojęciu istotności specy- 
ficzny sens empiryczny, wiążący je z proporcją zmienności zmiennej zależnej 
tłumaczoną (wyjaśnianą) przez określoną zmienną niezależną (zmienne nieza- 
leżne i ich możliwe interakcje). 

Zatem jednym z najważniejszych pytań, na które musi udzielić odpowiedzi 
badacz przeprowadzający badanie empiryczne, jest pytanie o istotność jakiejś 
zmiennej niezależnej (lub pewnej liczby zmiennych i ich interakcji) dla określo- 
nej zmiennej zależnej. Pochodną tego pytania — gdy badacz rozpatruje wpływ 
większej (co najmniej 2) liczby zmiennych — jest to, które dotyczy porządku 
istotnościowego zmiennych zakwalifikowanych przez badacza jako istotne dla 
danej zmiennej zależnej. 

Ponieważ rozpatrywane w psychologii zależności — wiążące daną zmienną 
(to jej teorię, „mniejszą” czy „większą”, będzie konstruował badacz) ze zmien- 
nymi uznanymi przez badacza za istotne dla niej — mają charakter statystyczny, 
więc staje się oczywiste, że badacze wiążą pojęcie istotności jakiejś zmiennej X 
(potraktowanej jako zmienna niezależna, przyczyna) dla jakiejś innej zmiennej, 
powiedzmy Y (potraktowanej jako zmienna zależna, skutek), z obserwowaną 
zmiennością Y, będącą efektem oddziaływania na nią właśnie tej wyróżnionej 
przez badacza zmiennej Xj, która — wedle jego wiedzy — może być przyczyną 
zmiennej Y (będącej skutkiem). Znaną w statystyce i chętnie przez badaczy sto- 
sowaną miarą zmienności jest wariancja — zwłaszcza z uwagi na jej własności. 

Wszystkie zmienne niezależne, uznane przez badacza za wywierające wpływ 
na zmienną Y, a więc — na gruncie jego aktualnej wiedzy — istotne dla niej, 
można podzielić na dwie klasy, przyjmując jako kryterium kontrolowanie przez 
badacza, w danym badaniu, ich wpływu na zmienną Y. Pierwsza klasa obejmuje 
zmienne kontrolowane — są one źródłem wariancji kontrolowanej zmiennej Y 
(inaczej: wyjaśniają określony procent jej wariancji całkowitej). Druga zaś klasa 
obejmuje zmienne niekontrolowane — są one źródłem wariancji niekontrolo- 
wanej zmiennej Y (inaczej zwanej wariancją resztową albo wariancją błędu). 

Chcąc więc poznać wielkość wpływu zmiennej X na zmienną Y, trzeba — 
w kontrolowanych warunkach badania empirycznego — określić procentowy 
udział wariancji cząstkowej, której źródłem jest dana zmienna, w wariancji cał- 
kowitej zmiennej Y. 

Powiązanie pojęcia istotności zmiennej X z miarą zmienności wyników 
zmiennej zależnej Y, którą jest wariancja zmiennej Y, nadaje pojęciu istotności 
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sens statystyczny. Psycholog, na przykład mówiąc, ze „IQ” (zmienna nieza- 
leżna) jest zmienną istotną dla zmiennej „osiągnięcia szkolne” (zmienna za- 
lezna), ma na myśli to, że zmienna ,,IQ” wyjaśnia określony, wyższy od pewnej 
wartości progowej, procent wariancji całkowitej zmiennej „osiągnięcia szkolne” 
(ten procent można precyzyjnie ustalić) i że jest ona jednym ze źródeł (gdyż — na 
ogół — zbiór zmiennych istotnych dla Y nie jest zbiorem jednostkowym) warian- 
cji wyjaśnionej zmiennej Y. Zmienne, których wpływy na Y, w danym bada- 
niu, nie są przez badacza kontrolowane, są źródłem wariancji niekontrolowanej, 
niewyjaśnionej. 


3. Miejsce AS w strukturze procesu badawczego w psychologii 


Proces badawczy przebiega w określony, uporządkowany sposób. Można 
też wyodrębnić w nim pewną liczbę etapów, faz czy ogniw. Jedną z możliwych 
propozycji podziału procesu badawczego na etapy przedstawiłem w: Brzeziński 
(2011). Nawiązując do tego modelu procesu badawczego w psychologii, skon- 
struowałem tabelę 1, w której wyszczególniłem — dla każdego etapu (kolumna 1) 
— zakres czynności badawczych do wykonania (kolumna 2), cel, jaki badacz 
zamierza osiągnąć (kolumna 3), oraz spodziewane efekty (kolumna 4). 

Ocena istotności zmiennych (dokładniej: potencjalnej istotności, gdyż ocena 
dokonywana jest na gruncie aktualnej, niekoniecznie przecież prawdziwej, wie- 
dzy badacza) z punktu widzenia określonej — znajdującej się w centrum zaintere- 
sowań badawczych psychologa — zmiennej zależnej jest szczególnie zaakcento- 
wana w dwóch pierwszych etapach procesu badawczego. Przyjrzyjmy się więc 
tym dwom etapom. 

Punktem wyjścia każdego badania naukowego w naukach empirycznych jest 
sformułowanie problemu badawczego pod postacią pytania (chciałoby się na- 
pisać — niebanalnego) dotyczącego zmiennej zależnej, a dokładniej jej związków 
ze zmienną (zmiennymi) niezależną główną. Badacza interesuje nie tylko znale- 
zienie odpowiedzi na pytanie dotyczące tego, jakie to zmienne niezależne można 
uznać za zmienne istotne (dokładniej: zmienne niezależne główne) dla danej 
zmiennej zależnej Y, ale — czy nawet przede wszystkim — chciałby on znaleźć 
odpowiedź na pytanie o kształt związku łączącego obie zmienne. W naukach 
behawioralnych zwykło się rozpatrywać dwie klasy związków, w które wchodzi 
zmienna zależna Y ze zmienną dla niej istotną X: związki prostoliniowe 
i związki krzywoliniowe. 

Także na gruncie danej wiedzy badacza formułowana jest — jego zdaniem 
najbardziej prawdopodobna — odpowiedź na pytanie badawcze, czyli hipoteza. 
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Tabela 1. Struktura procesu badawczego w psychologii 
(według ujęcia Brzezińskiego, 2011) 


1 2 3 4 
Zakres 
Etap czynności Cel Spodziewane efekty 
badawczych 
1. Sformułowanie pytania 1. Wyjaśnienie nowych faktów lub 
badawczego o uwarunkowania „lepsze” niż dotychczasowe wyjaśnienie 
zmiennej zależnej danych faktów 
2. Sformułowanie hipotezy 2. Powiększenie wiedzy psychologicznej 
I Problem badawczej traktującej (naukowej) o determinantach ludzkich 
i i hipoteza o zależności zmiennej zależnej zachowań 
od danej zmiennej niezależnej 
(także o interpretację 
przyczynowo-skutkową 
zaobserwowanych związków) 
Wyłonienie zmiennych 1. Zdefiniowanie zmiennej zależnej 
niezależnych, które badacz 2. Ustalenie listy zmiennych niezależnych 
uznaje, wstępnie, za istotne dla uznanych przez badacza, wstępnie, 
danej, o której traktuje problem | za istotne dla zmiennej zależnej 
badawczy, zmiennej zależnej 3. Podział zmiennych niezależnych 
uznanych, „na razie”, za istotne dla 
I. | Zmienne zmiennej zależnej na; ważne (główne 
i uboczne) oraz zakłócające 
4. Uznanie, czy rozpatrywana struktura 
zmiennych ma charakter izolowany czy 
interakcyjny 
5. Zdefiniowanie zmiennych 
niezależnych uznanych za istotne dla 
zmiennej zależnej 
Projektowanie metod pomiaru 1. Określenie statusu pomiarowego 
zmiennych: zależnej zmiennych (według klasyfikacji 
i niezależnych Stevensa) 
2. Konstrukcja nowych metod 
Operacjonali- jakościowych (obserwacja, wywiad, 
Ill. | zacja analiza wytworów) 
zmiennych 3. Konstrukcja nowych testów 
psychologicznych lub adaptacja 
kulturowa testów obcojęzycznych 
4. Dobór (konstrukcja) aparatury 
ekspozycyjnej i pomiarowej 
Zaplanowanie, zgodnie Uzyskanie planu badania gwarantującego 
z dokonanym wyborem, modelu | wysoką trafność wewnętrzną 
IV Model badania empirycznego w celu 
` | badawczy testowania hipotezy — model 


eksperymentalny vs model 
korelacyjny 
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Dobór osób (na jeden z kilku 
możliwych sposobów) w celu 
przeprowadzenia zaplanowane- 


1. Przeprowadzenie badania 
(maksymalizacja trafności wewnętrznej) 
zgodnie z zaplanowanym modelem 


wniosków 


3. Ocena etyczności badania 

4. Odniesienie się do hipotez 

w świetle rezultatów zastoso- 
wanych procedur statystycznych 
5. Sformułowanie wniosków 

6. Uogólnienie wniosków 

z poziomu próby na poziom 
populacji — określenie trafności 
zewnętrznej badania 


V. | Próba go badania empirycznego — 2. Umożliwienie przeprowadzenia 
dobór losowy vs dobór celowy zaplanowanych analiz statystycznych 
3. Zapewnienie badaniu wysokiej 
trafności zewnętrznej 
Przeprowadzenie badania 1. Uzyskanie wyników w warunkach 
według założonego modelu, zapewniających wysoką trafność 
VI Przeprowadze- | dokonanie pomiaru zmiennych wewnętrzną badania 
` | nie badania uwzględnionych w planie 2. Uzyskanie wyników obciążonych jak 
badania (zebranie danych) najmniejszym błędem zastosowanych 
narzędzi 
1. Przeprowadzenie opisu 1. Poznanie rozkładów wyników 
statystycznego uzyskanych zmiennej zależnej w porównywanych 
wyników grupach — eksploracyjna analiza danych 
: 2. Zastosowanie adekwatnych 2. Poznanie siły związków zachodzących 
Analiza : i : > BRE: i 
do założonego planu badania między analizowanymi zmiennymi 
VII. | statystyczna REM He . REA i 
statystycznych testów istotności | 3. Ocena wielkości różnic występujących 
różnic i miar siły związku między porównywanymi grupami pod 
zachodzącego między względem wartości wskaźników 
zmiennymi analizowanych zmiennych zależnych 
4. Ocena wielkości efektów ES 
1. Ocena poprawności metodo- 1. Akceptacja (w sensie: aprobowanego 
logicznej przeprowadzonego przez badacza jej uprawdopodobnienia) 
badania i — jeżeli zajdzie taka hipotezy albo jej odrzucenie 
konieczność — dokonanie 2. Poznanie rzeczywistej trafności 
niezbędnych korekt i uzupełnień | zewnętrznej badania — precyzyjne 
— określenie trafności wewnęt- określenie zakresu uogólniania wniosków 
rznej badania odnośnie do uzyskanego rezultatu 
Öceia badania 2. Ocena zakłócającego wpływu | badawczego 
GA osoby badacza i osoby uczest- 
1 hipotez One niczącej w badaniu na wyniki 
VIII. | sformułowanie . 
` F przeprowadzonego badania 
i uogólnienie 


Żródło: tabela 4.4 (Brzeziński, Zakrzewska, 2010, s. 206) i tabela 3 (Brzeziński, 2010, s. 176-177) 
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Badacz, mimo że jest zainteresowany tylko określeniem zależności zmiennej 
Y od jakiejś określonej zmiennej X, to nie może zignorować tego, że obok tej 
wyróżnionej zmiennej niezależnej (głównej) na Y oddziaływają także inne 
ważne zmienne. Powinien tedy odtworzyć, z jak największą wiernością, zbiór 
zmiennych istotnych dla zmiennej zależnej Y (ważnych, a także zakłócających). 
Badacz — na gruncie swojej wiedzy (podkreślamy, że mamy na myśli jedynie 
wiedzę naukową, racjonalną) — tworzy zbiór zmiennych niezależnych, uznawa- 
nych przez niego za zmienne istotne dla zmiennej Y. Zbiór ten może (i na ogół 
tak jest) różnić się od zbioru zmiennych de facto istotnych dla Y — w szczególno- 
ści część zmiennych może być rzeczywiście istotna dla Y, a część z nich badacz 
mógł, na gruncie swojej wiedzy (wszak niepełnej), mylnie uznać za zmienne 
istotne dla Y. Będziemy więc odróżniać zbiór zmiennych de facto istotnych dla 
Y od zbioru zmiennych uznawanych przez badacza, na gruncie jego wiedzy, za 
zmienne istotne dla Y. Ten pierwszy będziemy nazywać przestrzenią zmien- 
nych istotnych dla Y — w skrócie: Py. Z kolei ten drugi określać będziemy mia- 
nem obrazu przestrzeni zmiennych istotnych dla Y — w skrócie: O(Py). Na 
przykład, jeżeli zmienną zależną Y są „osiągnięcia szkolne”, to do Py należy, 
między innymi, „„IQ”, a badacz może, mylnie, do O(Py) zaliczyć zmienną nieza- 
leżną „narodowość ucznia”. 

Trafne rozpoznanie zbioru zmiennych istotnych dla Y umożliwi badaczowi 
poddanie ich efektywnej kontroli i określenie procentowego udziału wprowa- 
dzonych przez nie wariancji cząstkowych zmiennej Y w całkowitej wariancji 
zmiennej Y. Zauważmy jeszcze, że badacze, zajmujący się tym samym proble- 
mem badawczym, mogą się różnić, jeśli chodzi o budowane przez nich obrazy 
przestrzeni zmiennych istotnych dla Y. Także ten sam badacz może, przy kolej- 
nych próbach rozwiązywania tego samego problemu badawczego, dokonywać 
modyfikacji „wyjściowego” O(Py), tak że każdy następny, tworzony przez niego 
O(Py), będzie wierniejszą rekonstrukcją Py. Można zatem postęp badań przed- 
stawić pod postacią łańcucha, którego ogniwami są O(Py) o coraz to większej 
trafności. 

Badacz nie poprzestaje jedynie na próbie odtworzenia Py, ale próbuje też 
ustalić porządek istotnościowy w obrębie zmiennych zaliczonych przez niego 
do O(Py). Porządkuje tedy zmienne uznane za istotne od najbardziej do najmniej 
istotnych dla Y, tworząc jej strukturę (istotnościową). Rzeczywistej strukturze 
przestrzeni zmiennych istotnych dla Y (w skrócie: Sy) odpowiadać więc będą 
jej obrazy tworzone przez różnych badaczy podejmujących ten sam problem 
badawczy (w skrócie: O(Sy)). 
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Wreszcie zmienne mogą oddziaływać na Y w izolacji albo wchodząc ze sobą 
w interakcje. W pierwszym przypadku będziemy mówić o izolowanym rodzaju 
Sy, zaś w drugim — o interakcyjnym rodzaju Sy. Badacz, próbując rozpoznać 
rodzaj (izolowany vs interakcyjny) struktury przestrzeni zmiennych istotnych 
dla Y, tworzy jego — trafny albo nietrafny — obraz. Możemy tedy mówić o izolo- 
wanym obrazie... i o interakcyjnym obrazie... Rozliczne badania pokazują, że 
rzeczywistość, którą bada psycholog, ma raczej charakter interakcyjny aniżeli 
izolowany. Przykładowo, istotna dla kształtowania się „IQ” jest właśnie inte- 
rakcja dwóch zmiennych — „środowiska” i „genotypu”. Zatem nietrafne byłoby 
utworzenie, w tym przypadku, O;,(Sy). To, czy badacz będzie rozpatrywał izo- 
lowany O;,(Sy) czy interakcyjny Ox(Sv), ma znaczący wpływ na wybór przez 
niego i modelu badawczego, i — co w kontekście tematu niniejszej dyskusji 
szczególnie nas interesuje — modelu statystycznego. 

Ten drugi etap procesu badawczego nosi nazwę etapu istotnościowego. To, 
co badacz ustali na tym etapie, będzie bardzo brzemienne w skutki dla spraw- 
dzanej hipotezy (teorii). Efektywnej kontroli będą podlegały przecież tylko te 
zmienne, które badacz uzna — trafnie czy nietrafnie — za istotne dla Y. Podobnie, 
jeżeli badacz zdecyduje się na wybór jednego z rodzajów O(Sy): Oz(Sy) czy 
O;„(Sv), to będzie to miało konsekwencje metodologiczne dla wyboru określo- 
nego modelu badawczego i statystycznego, zgodnie z którym będzie przebiegało 
badanie empiryczne i, podkreślmy, statystyczne opracowanie danych empirycz- 
nych, w świetle których psycholog albo zaakceptuje hipotezę badawczą, albo 
uzna ją za nietrafną. 

Nie wszystkie modele statystyczne (wyłaniane w etapie 6. procesu ba- 
dawczego) nadają się do testowania hipotez o wpływie interakcji dwóch 
(i większej liczby zmiennych) na Y. Takimi adekwatnymi do treści owych hipo- 
tez modelami statystycznym są: 

— model analizy wariancji (w dwóch odmianach: jedno- (univariate) i wie- 
lozmiennowej (multivariate). ANOVA i MANOVA (np. Kirk, 1995; Winer, 
Brown, Michels, 1991; Brzezinski, 2008); 

— model wielokrotnej regresji/korelacji (np. Cohen i in., 2003; Pedhazur, 
1997) umożliwiający testowanie hipotez o istotności zarówno pojedynczych 
zmiennych, jak i ich interakcji (por. zwłaszcza: Aiken, West, 1991). 


18 JERZY MARIAN BRZEZINSKI 


4. Wtórność AS 
względem „kontekstu odkrycia” 


Dwa pierwsze etapy procesu badawczego mają najbardziej twórczy, od- 
krywczy charakter. To, jakie zmienne badacz uzna za powiązane ze sobą i jaki 
jest charakter owych powiązań, będzie stanowiło o niebanalności danego bada- 
nia. Można powiedzieć, że na tym etapie badania naukowego badacz artykułuje 
oryginalne, twórcze pomysły, które mogą zmienić oblicze teoretyczne danego 
działu psychologii, albo też powiela, z małymi modyfikacjami, cudze pomysły 
czy formułuje hipotezy banalne w ich treści. 

Gdyby się odwołać do wprowadzonego przez filozofów nauki (przez: Rei- 
chenbach, 1938/1989) podzielenia procesu poznawczego na dwa konteksty — 
„kontekst odkrycia” (context of discovery) i „kontekst uzasadnienia” (context 
of justification) — to dwa pierwsze etapy procesu badawczego utożsamić by 
można z pierwszym kontekstem, a sześć pozostałych z drugim. Ten pierwszy 
z wyróżnionych kontekstów wymaga ,,czegos” więcej od badacza aniżeli tylko 
dobrego przygotowania warsztatowego, wymaga kreatywności (owej „iskry bo- 
żej”). Z kolei drugi wymaga solidnego przygotowania metodologicznego 1 umie- 
jętności prowadzenia badań empirycznych, ale także — co powinno zwrócić naszą 
szczególną uwagę — umiejętności planowania i przeprowadzania AS. W pierw- 
szym przypadku jest się, przede wszystkim, twórcą (,,architektem” — jak powie- 
dział Arystoteles, 1983, s. 4-5). W tym drugim zaś przypadku jest się, tak na- 
prawdę, biegłym „rzemieślnikiem”. I jedni, i drudzy są potrzebni w nauce, ale 
o jej postępie decydują, przede wszystkim, ci pierwsi. 

Mój pogląd w kwestii miejsca AS w procesie badawczym jest następujący: 

AS zawsze jest wtórna względem teorii psychologicznej i względem 
planu badawczego. 

Aczkolwiek konstruując plan badawczy, musimy uwzględnić to, do jakiego 
modelu statystycznego będziemy chcieli się odwołać. Widać to, na przykład, 
wyraźnie w eksperymentach odwołujących się do modelu ANOVA. Nawiasem 
mówiąc, w wielkich monografiach dotyczących planowania eksperymentów 
(np. Kirk, 1995) w tytule występują słowa: „experimental design”, a treść mono- 
grafii odnosi się do modelu statystycznego ANOVA. Nie jest jednak tak, że ule- 
gając modzie na jakiś typ AS, „zgodzimy się”, aby jakieś narzędzie statystyczne 
„dyktowało” zakres eksploracji badawczych. Można, rzecz jasna, wyobrazić so- 
bie taką sytuację, gdy wyniki AS zasugerują nam dalszą pogłębioną analizę 
struktury zmiennych, z odwołaniem się do nowych analiz itd., ale te nowe ana- 
lizy będą wtórne, gdyż będą zasugerowane przez pierwotne badanie empiryczne 
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zagniezdzone w okreslonym kontekscie teoretycznym. To byt dla mnie, przed 
laty (Brzezinski, 1976), jeden z argumentów za zniesieniem tradycyjnej dycho- 
tomii: kontekst odkrycia vs kontekst uzasadnienia. 


5. Wnioski statystyczne a wnioski badawcze 


Dość często (nazbyt często!) artykuły empiryczne, a zwłaszcza te, które mają 
postać krótkich raportów z przeprowadzonego badania (bywa, że mającego, 
z punktu widzenia postępu w rozwoju psychologii, charakter „„śmieciowy ”), koń- 
czą się wnioskami, które ,,zero-jedynkowo” odnoszą się do rezultatu zastosowa- 
nej, w ramach procedury NHST, metody oceny hipotezy zerowej. 

Ci badacze zdają się jednak zapominać, że nawet test istotności różnic zasto- 
sowany w warunkach gwarantujących wysoką moc testu (por. przypis 7) infor- 
muje badacza jedynie o prawdopodobieństwie (wynoszącym: „| — Ø”), z jakim, 
w warunkach idealnych, może on odrzucić fałszywą hipotezę zerową. Dobrze, 
to jest (powinna być) pierwsza część wniosku. Nie trzeba jednak zapominać 
o drugiej — na tej pierwszej nadbudowanej i wykraczającej poza czyste możli- 
wości interpretacyjne wynikające wprost z modelu zastosowanego testu istotnoś- 
ci: różnic czy współczynnika korelacji — części wniosku. Ta zaś musi skupić się 
na dwóch sprawach. 

Pierwsza — to ocena warunków, w których zastosowano test, i tego, czy 
miały one wpływ na jego wynik. Porównywane próby nie są przecież, tak na- 
prawdę, pobrane według losowania zwrotnego z populacji (a takie jest założenie 
modelu statystycznego testu istotności różnic — Lehmann, 1968). Czy rzeczywi- 
ście badacz kontrolował wszystkie wpływy zewnętrzne, które mogły zniekształ- 
cać zachowanie się osób badanych w sytuacji badawczej? Oczywiście, że nie. 
Czy w badaniach o charakterze eksperymentalnym stosował się do zasady ran- 
domizacji? Poważny badacz na ogół dopełnia tego warunku. 

Druga — to ocena konsekwencji praktycznych zaakceptowanego przez ba- 
dacza ryzyka popełnienia błędu I” (zawsze w fazie planowania badania, a nie już 
po jego zakończeniu!). Zbyt rygorystyczny poziom p może sprawić, że „uto- 
pimy” ciekawą hipotezę. Z kolei zbyt liberalny poziom p może doprowadzić do 
upowszechnienia się fałszywego wyniku, który będzie stanowił podstawę dla 
jakiejś, powiedzmy, procedury terapeutycznej, która może okazać się szkodliwa 
(np. źle sprawdzony lek, który okaże się toksyczny). Może zatem nie trzymać 
się sztywno owego „uświęconego” poziomu p = 0,05? Może czasami trzeba 
sięgnąć po p = 0,001, a czasem wystarczy p = 0,10 (np. w badaniach typu 
eksploracyjnego)? 
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Przychylam sie tedy do sugerowanego przez Kinga i Miniuma (2009, s. 25) 
podziału wniosków na: wnioski statystyczne i wnioski badawcze. 


IH. REPLIKACJE 
(CZY RZECZYWIŚCIE SĄ NIEZBĘDNE?) 


Odpowiem krótko: TAK. Psychologia i psychologowie uniknęliby wielu 
kłopotów (też ośmieszenia i kompromitacji), gdyby doceniało się badania będące 
powtórką czyichś badań. 

Przyjrzyjmy się bardzo głośnej, zwłaszcza w środowisku psychologii spo- 
łecznej, sprawie profesora psychologii z Uniwersytetu w Tilburgu, Diederika 
Stapela. Została ona upubliczniona w ostatnich miesiącach ubiegłego roku. Oto 
stosunkowo młody (rocznik 1966), ale o już uznanej w świecie pozycji nauko- 
wej, psycholog społeczny z Uniwersytetu w Tilburgu, Diederik Stapel, okazał się 
„zdolnym” oszustem, który wyprowadził w pole nawet redakcje tak renomowa- 
nych czasopism, jak Journal of Personality and Social Psychology czy Science. 
Oszust, specjalizujący się w problematyce uprzedzeń społecznych i stereotypów, 
oparł swoje liczne artykuły na całkowicie zmyślonych wynikach. Autor popular- 
nego artykułu: „Diederik Stapel. Kanciarze z tytułami naukowymi”, zamieszczo- 
nego w polskiej edycji tygodnika Newsweek (Stawiszyński, 2011), uważa, że za 
to, że oszuści są, w jakimś sensie, bezkarni, odpowiedzialne są redakcje czaso- 
pism, które nie są skłonne drukować artykułów zdających sprawę z powtórzo- 
nych, a nie oryginalnych badań. Jelite M. Wicherts (2011), komentując na 
łamach prestiżowego Nature owe bulwersujące zdarzenia, napisał: ,, To scientists 
in other fields, not sharing data may seem extraordinary; to psychologists it is 
sadly common practice” [wyróżnienie — J. M. B.]. 

Na początku niniejszego artykułu napisałem, że jedną z cech poznania 
naukowego jest jego powtarzalność, możliwość przeprowadzenia jego replika- 
cji oraz jego intersubiektywność (w sensie podanym przez Ajdukiewicza, 
1983). Gdyby psychologowie przywiązywali taką samą wagę do replikacji badań 
empirycznych — przed ich opublikowaniem — jak ich koledzy z nauk przyrodni- 
czych (por. Sun, Pan, Wang, 2010), to można by było uniknąć takich kompro- 
mitujących sytuacji, jak ta wyżej opisana. 

Zresztą — na co wskazał w swoim wnikliwym i krytycznym (na temat sprawy 
Stapela) artykule pracujący na Uniwersytecie Wrocławskim psycholog społeczny 
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Jarosław Klebaniuk (2011) — niełatwo przebić się autorom takich „wtórnych” 
opracowań (chyba że mają ,,nosne” w środowisku nazwisko — to moja opinia), 
których zamiarem byłoby negliżowanie rezultatów czyjejś (już opublikowanej, 
a więc i kompetentnie zrecenzowanej) pracy empirycznej. W grę wchodzi też an- 
gażowanie czasu i środków finansowych w pracę, która i tak nie przyniesie 
spektakularnych profitów (wysoka liczba punktów, uznanie itp.), a czasem może 
być odebrana jako chęć „odegrania się” (pytanie: o co mu/im chodzi?) na auto- 
rze/autorach oryginalnego studium. W pełni podzielam diagnozę sytuacji w psy- 
chologii społecznej (a nie sądzę, aby w innych jej działach było inaczej): 


Inną sprawą domagającą się zmian są replikacje opublikowanych badań. Nie są 
one cenione przez redakcje czasopism, a jednym z kryteriów kwalifikacji do 
druku jest to, na ile prezentowane wyniki są nowe, oryginalne i przyczyniają się 
do rozwoju dyscypliny. Siłą rzeczy replikacje wobec tak postawionych kryteriów są 
mniej wartościowe niż badania realizowane po raz pierwszy. Utrudnia to weryfiko- 
wanie wcześniejszych (m.in. Stapelowskich) rezultatów, choć jest to przecież jeden 
z podstawowych postulatów metody naukowej. Nie widzę prostego rozwiązania tego 
problemu, jednak postęp rozumiany jako weryfikacja nowych hipotez nie może być 
jedynym celem nauki. Także dotychczasowe ustalenia, zwłaszcza gdy, co jest raczej 
normą niż wyjątkiem, mają słaby — w sensie siły związku lub proporcji wariancji 
wyjaśnionej — charakter, wymagają dalszego drążenia. Droga do ustaleń psychologii 
nie jest prosta i choć trudno się z nadmiernie zagmatwanym, niezbyt wyraźnym ich 
obrazem przebić, to może warto czasem poprzestać na małym. Diederik Stapel 
„odkrywał” zależności klarowne i liczne. Teraz wiele z nich trzeba będzie poddać 
w wątpliwość lub wręcz odwołać. Może warto dać szansę mniej udanym bada- 
niom. Prawda w psychologii społecznej nie musi być piękna” (Klebaniuk, 2011) 
[wyróżnienie — J. M. B.]. 


W polskiej literaturze psychologicznej znaczącą — i jak na razie — jedyną 
pracę poświęconą replikacji (także autoreplikacji) opublikował psycholog spo- 
łeczny Bogdan Wojciszke (2006, 2011)’. Warto, aby weszła ona do kanonu 
literatury obowiązującego na studiach doktoranckich z zakresu psychologii czy 
szerzej: nauk społecznych. 

Publikowanie artykułów na ten sam temat, ale z różnymi modyfikacjami 
(o które upomniał się w swoim artykule Wojciszke — tamże), odnoszącymi się do 
modyfikacji składu próby i cech sytuacji badawczej (trafność zewnętrzna!) czy 
kontroli i operacjonalizacji zmiennych (trafność wewnętrzna!), może się przy- 
czynić do wyostrzenia obrazu wykrytej w oryginalnym artykule (zakładam, że 


6 Na ten artykuł zwróciła mi uwagę prof. Maria Lewicka (UW) — której za to dziękuję. 
1 Czytelnika odsyłam też do interesującej pracy zbiorowej pod redakcją J. W. Neuliepa 
(1991): Replication research in the social sciences. 


22 JERZY MARIAN BRZEZIŃSKI 


nie powstał on metodą Stapela) zależności pretendującej do statusu prawa nauki”. 
Chciałbym tu wspomnieć o reanalizach prawa Yerkesa i Dodsona (1908), opisa- 
nych w pracy Teigena (1994). 

Replikacje badań, a zwłaszcza tych kontrowersyjnych, mają nie tylko swój 
sens „kontrolny” (realizacja Ajdukiewicza zasady intersubiektywnej kontrolo- 
walności), ale gdy będą dobrze poprowadzone od strony AS, to ich wskaźniki 
ES będą podlegały kumulacji w przeprowadzonej metanalizie. Zatem, raz jesz- 
cze chciałbym podzielić opinię Kinga i Miniuma (2009, s. 357) — tym razem 
odnośnie do wartości metaanalizy: 


[...] pomimo pewnych niedoskonałości metaanaliza już pomogła skupić uwagę na 
wielkości efektu i na wspieraniu rozwoju nauki, który jest rozumiany jako proces 
kumulatywny (a nie działanie zmierzające do osiągnięcia pewnej magicznej wartoś- 
ci p). Nie możemy zapomnieć, że „kolejne próby jej [hipotezy] weryfikacji mogą się 
okazać albo silniejsze, albo słabsze” (Fisher, 1960, s. 25). 


I znowu wróciliśmy do wskaźników wielkości efektu. Nie da się od nich 
uciec! 


IV. CZTERY POZIOMY REALIZACJI SEKWENCJI: 
TEORIA > REZULTAT BADAWCZY 


Główną myślą przewodnią niniejszego opracowania jest stwierdzenie, że to 
teoria (tu: psychologiczna) czyni sensownym cały projekt badawczy i że będąca 
w centrum naszego zainteresowania AS jest na „usługach” tejże. Jak powiedział 
znany biolog François Jacob (1973, s. 32): „w wymianie między teorią a do- 
świadczeniem teoria zawsze zaczyna dialog jako pierwsza”. 

Relacja: „teoria-empiria” realizowana jest według mnie na czterech 
poziomach: 

Poziom 1. Psycholog poddający empirycznej kontroli jakąś hipotezę musi 
rozpatrzyć ją w kontekście paradygmatu, z którego wywiedziona została okre- 
ślona teoria stanowiąca ontologiczne i epistemologiczne „tło” dla sprawdzanej 
hipotezy. Analizując związki zachodzące między sprawdzaną hipotezą a innymi, 
pokrewnymi teoriami, psycholog musi pozostawać w obrębie danego paradyg- 


8 Jeśli chodzi o polskie czasopisma psychologicznie, to jedynie redakcja Psychologii 
Społecznej informuje potencjalnych autorów (wręcz zachęca ich!), aby składali artykuły, w któ- 
rych przedstawialiby „nietrywialnie replikacje wyników”. 
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matu. Odnoszenie hipotezy wyrażonej w języku teorii T', należącej do paradyg- 
matu P', do jakichś elementów teorii T’, należącej do paradygmatu P”, nie może 
przynieść wartościowych poznawczo rezultatów, gdyż badacz równocześnie 
używa dwóch nieprzekładalnych na siebie języków. Mówi „coś”, ale nie bardzo 
wiadomo, w system jakiej wiedzy to ,,cos” można wbudować. Nie można 
bowiem — żeby odwołać się do jakiegoś przykładu — odwoływać się jednocześ- 
nie do języka ortodoksyjnej psychoanalizy (jeden paradygmat) oraz do języka 
behawioryzmu (drugi paradygmat). Oba bowiem paradygmaty reprezentują 
całkowicie odmienne punkty widzenia na naturę ludzkiego zachowania i jego 
determinant. 

Także badanie empiryczne musi być zaplanowane z uwzględnieniem kontek- 
stu tego samego paradygmatu. A zatem badacz musi respektować zasadę, którą 
można nazwać zasadą niesprzeczności paradygmatycznej i którą można wyrazić 
w następujący sposób: zmienne teoretyczne i zachodzące między nimi relacje, 
o których traktuje hipoteza badawcza, powinny być wyprowadzone z tego sa- 
mego paradygmatu. 

Niestety, młodsze pokolenia psychologów dość często ignorują ową zasa- 
dę i formułują, może i ciekawie wyglądające i operujące śmiałymi zestawienia- 
mi terminologicznymi, quasi-teorie stanowiące zlepek elementów należących 
do różnych paradygmatów. Co więcej, projektując badanie, wcale nie dbają 
o powiązanie jego modelu z wyjściowym — dla sprawdzanej hipotezy — para- 
dygmatem. 

Poziom 2. Projektując badanie, musimy wpierw nadać sens teoretyczny ter- 
minom (zwłaszcza nowym) występującym w hipotezie. Pozostając w obrębie tej 
samej teorii, nadajemy — uprzednio zdefiniowanym na gruncie określonej teo- 
rii psychologicznej — terminom (zmiennym) teoretycznym sens empiryczny, 
przeprowadzając zabieg operacjonalizacji (jak to się robi, pokazała — wychodząc 
z założeń idealizacyjnej teorii nauki — Hornowska, 1989). Ten zaś wymaga bądź 
posłużenia się gotowymi metodami pomiaru interesujących nas zmiennych (np. 
pomiaru IQ za pomocą WAIS-IV), bądź skonstruowania nowych metod. Kon- 
struując test psychologiczny, musimy też odwołać się do określonej teorii testu. 
Tylko na gruncie takiej teorii skonstruowany przez badacza test stanowi warto- 
Sciowe narzędzie. Jakie to teorie wchodzą w grę i w jakich monografiach zostały 
zaprezentowane, ukazuje tabela 2. 

Psycholog, który ukończył studia, na których nie przedstawiono mu rzetelnie 
problematyki psychometrycznej (a — niestety — jest to możliwe), będzie bez- 
radny. Mało tego, nie będzie wiedział, dlaczego recenzent dobrego czasopisma 
„Się czepia”. 
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Poziom 3. Uzyskane wyniki, powiedzmy — testu psychologicznego, poddane 
są analizie statystycznej. Powstaje jednak problem: jaką przyjmą one postać? 
W zasadzie można mówić o trzech postaciach, jakie mogą przyjąć wyniki (por. 
tabela 2): 

— mogą to być wyniki surowe (np. suma prawidłowych odpowiedzi w jakimś 
teście dla poszczególnych osób badanych); 

— wyniki surowe mogą być przekształcone (standaryzowane): tzw. scaled 
scores w Skali Wechslera, steny, teny, tetrony itp.; 

— wyniki poszczególnych narzędzi mogą być zintegrowane i przedstawione 
pod postacią profilu psychometrycznego (np. profil Skali Inteligencji) czy wy- 
niku czynnikowego (factor score). Przykładowo, wyniki cząstkowe testów wcho- 
dzących do jednego czynnika Skali Wechslera będą tworzyć tzw. wynik czynni- 
kowy (factor score) — jak to się robi w odniesieniu do skali WAIS-R(PL), poka- 
zała Zakrzewska (2000). 

W zależności od postaci wyniku badacz sięga po mniej lub bardziej zawan- 
sowaną metodę AS. Przykładowo, w odniesieniu do Skal Inteligencji czy wielo- 
wymiarowych kwestionariuszy osobowości, których wynik przyjmuje postać 
profilu, najlepszym wyborem jest sięgnięcie po metody analizy intra- i inter- 
profilowej (por. odsyłacze bibliograficzne w tabeli 2). Nie zalecam, a wręcz 
przeciwnie — zniechęcam do analiz porównawczych (dwugrupowych czy wielo- 
grupowych) prowadzonych dla każdego testu Skali Inteligencji czy wymiaru 
kwestionariusza osobowości odrębnie (np. za pomocą testu £ Studenta). 

Poziom 4. Przeprowadzone analizy porównawcze, z odwołaniem do prostych 
analiz (np. istotność różnic dwóch średnich za pomocą testu £ plus wskaźnik ES), 
albo — dziś już coraz częściej — zaawansowanych, typu MANOVA, MCR plus 
analiza ścieżek, model równań strukturalnych (SEM, por. np. Konarski, 2009) 
itp., stanowią podstawę interpretacji psychologicznej, która — co ważne (respek- 
towanie zasady niesprzeczności paradygmatycznej) — powinna być poprowa- 
dzona w ramach teorii, w której języku sformułowano hipotezy badawcze. Kon- 
tynuując nasz przykład ze Skalami Inteligencji Wechslera, można wskazać bo- 
gatą literaturę, której autorzy, też odwołując się do własnego bogatego doświad- 
czenia klinicznego, pokazali, jaki sens psychologiczny nadać uzyskanym przez 
pacjentów wynikom — por. np. Rapaport (1945); Zimmerman i Woo-Sam (1973), 
Kowalik (1988), Lichtenberger i Kauffman (2009). 
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Tabela 2. Cztery poziomy realizacji sekwencji: 


TEORIA > REZULTAT 


2 


Poziom 


Teoria 


Rezultat 


Poziom 1. Konstruowanie 
zmiennych i budowanie 
hipotetycznych relacji między 
nimi > TEORIA badanej 
zmiennej 


1. Teoria psychologiczna: 
— Inteligencji 

— osobowości 

— temperamentu 

— depresji 


1. Definicje teoretyczne, 
np. definicja inteligencji, 
temperamentu, leku, depresji 


Poziom 2. Nadawanie sensu 
empirycznego analizowanym 
zmiennym > TEORIA 
operacjonalizacji badanej 
zmiennej 


2a. Teoria psychometryczna: 

— model wyniku prawdziwego 
(True Score Theory — por. 
Gulliksen, 1950) 

— teoria odpowiedzi na pozycje 
testu (Item Response Theory — 
por. Lord, 1980; Hulin, 
Drasgow, Parsons, 1983/2006; 
Hambleton, Swaminathan, 
Rogers, 1991) 

— teoria uniwersalizacji (Lord, 
Novick, 1968) 

— teoria wyniku generycznego 
(Cronbach i in., 1972) 

2b. Teoria konstrukcji 
aparatury pomiarowej 

2c. Teoria narzędzi nie 
odwołujących się do 
psychometrii 


2. Narzędzia: 

— test psychologiczny, np. Skala 
Inteligencji WAIS-IV, 
kwestionariusz NEO-FFI, Skala 
Temperamentu Strelaua itp. 

— aparatura pomiarowa, np. 
EEG, fMRI, KT, eye tracer itp. 
— obserwacja 

— rozmowa kliniczna 

— wywiad standaryzowany 

— analiza wytworów, np. 
rysunek, pismo itp. 


Poziom 3. Interpretowanie 
ilościowe 

> TEORIA jako rama 
interpretacji ilościowej 
uzyskanego wyniku: prostego 
lub zintegrowanego 


3. Teoria statystyczna 

— teoria przedziałów ufności CI 
(por. Kline, 2004) 

— teoria testowania hipotezy 
zerowej NHST 


3a. Konstrukcja wyniku: 

— wynik prosty (surowy) 

— wynik standaryzowany (z) 
— wynik zintegrowany 

(np. profil, skupienie) 

3b. Rezultat interpretacji 
statystycznej (ilościowej) 
dokonanej za pomocą: 

— przedziały ufności CI 

— testy statystyczne istotności 
różnic 

— analiza profilowa PA 

(por. np. Tabachnick, Fidel, 
2001; Brzeziński, 2011) 

— analizy regresji/korelacji 
R/CA (np. Pedhazur, 1997) 
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— analizy czynnikowej FA 

(np. Thompson, 2004) 

— wskaźników wielkości efektu 
(por. Cohen, 1988; Grissom, 
Kim, 2005; Fritz, Morris, 
Richler, 2011) 

— analizy wyników surowych 
(por. Tukey, 1977; Hoaglin, 
Mosteller, Tukey, 2000; Loftus, 
1996, 2002; Cumming, Finch, 


2005) 
Poziom 4. Interpretowanie 4. Teoria psychologiczna 4. Interpretacja psychologiczna 
psychologiczne (jakościowe) — inteligencji (jakościowa) wyniku, np. 
TEORIA jako rama — osobowości kliniczna: interpretacja kliniczna 
interpretacji statystycznej — temperamentu profilu Skali Inteligencji 
uzyskanego wyniku — depresji itp. D. Wechslera (dla dzieci i dla 


dorosłych) — por. np. Zimmer- 
man, Woo-Sam (1973), Kowalik 
(1988), Lichtenberger, 
Kauffman (2009). 


Źródło: na podstawie tabeli 2 (Brzeziński, 2010, s. 174-175) 


V. CZTERY POZIOMY AS 


Gdyby zastanowić się nad „głębokością” i „rozległością” przeprowadzanych 
przez psychologów analiz statystycznych, to można — jak mniemam — wyróżnić 
cztery jej poziomy: 

Poziom A. Na tym poziomie badacz wnika w strukturę wyniku pojedynczej 
osoby: ANOVA dla n = 1 (por. Stachowski, Brzezinski, 1982); analiza intrapro- 
filowa dla n = 1 (por. Brzeziński, 2011, rozdz. 19: „Analiza profilów psychome- 
trycznych — porównania intraindywidualne i interindywidualne ). Przykładowo, 
psycholog dokonuje analizy profilu Skali Inteligencji Wechslera danej osoby: 
budowa przedziałów ufności dla wyników testów tworzących profil, analiza dys- 
persji profili, analiza odchyleń poszczególnych wyników od średniego profilu, 
ocena istotności różnic między wynikami dwóch testów tworzących profil. 

Poziom B. Przejście od wyniku pojedynczej osoby do wyników grupy n osób 
to poprowadzenie AS ,,wewnatrz” grup n osób (within-subjects analysis); ANOVA 
i MANOVA; analiza czynnikowa; analiza interprofilowa, analiza regresji (por. 
Winer, Brown, Michels, 1991; Kirk, 1995; Thompson, 2004; Tabachnick, Fidell, 
2001, rozdz. 10; Morrison, 1990; Pedhazur, 1997). Jeżeli sięgniemy po ten sam 
przykład Skali Inteligencji Wechslera, to zastosowanie znajdują bardziej złożone 
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modele statystyczne: ANOVA z powtarzaniem pomiarów (Brzeziński, Maru- 
szewski, 1978) czy — współcześnie — raczej MANOVA. 

Poziom C. Dalsze rozszerzenie AS związane jest z poprowadzeniem porów- 
nań: dwu- i p-grupowych — analiza danych między p grupami (analiza „między 
osobami”, between-subjects analysis). Wiąże się to z podejściem NHST 
(t, ANOVA, MANOVA, testy nieparametryczne) lub ze strategią posłużenia się 
przedziałami ufności (CI, por. Kline, 2004; Tabachnick, Fidell, 2001; Siegel, 
Castellan, 1988; Cumming, Finch, 2005). Tu też mieszczą się ,,hybrydowe” ana- 
lizy „między-wewnątrz” z odwołaniem się do modeli ANOVA i MANOVA. 

Poziom D. Ten najwyższy poziom AS obejmuje analizę k badań dotyczą- 
cych p grup poprowadzoną metodą metaanalizy (por. Hunter, Schmidt, 1990; 
Schmidt, 1995; Schwarzer, 2007; Kleka, 2011). Współczesne przeglądy litera- 
tury przedmiotu są już prowadzone z zastosowaniem właśnie metaanalizy. Nie- 
stety, w polskich czasopismach psychologicznych są praktycznie nieobecne. 


VI. WSTĘPNA OCENA WYNIKÓW 
— ANALIZA WYKRESÓW I ROZKŁADÓW 


Jedną z ważniejszych książek z zakresu AS, z którą przed laty się zapozna- 
łem (w trakcie pobytu na Uniwersytecie w Hamburgu) i która — mimo upływu lat 
— nic nie straciła na swojej aktualności, była obszerna monografia wybitnego 
statystyka Johna Tukeya (kto z nas nie zna testu HSD jego autorstwa stosowa- 
nego w ANOVA?) pt. Exploratory data analysis (Tukey, 1977). Wielokrotnie po 
nią sięgałem. Szkoda, że nie przełożono jej na język polski. Bardzo by się przy- 
dała w dydaktyce uniwersyteckiej. Czego się z niej nauczyłem? Ano też i tego, 
ze znacznie ważniejsze od myślenia o zebranym zbiorze wyników jedynie 
w kategoriach testowania hipotezy zerowej (strategia NHST), a więc o wyborze 
najlepszego (w sensie: maksymalizującego szanse odrzucenia Hy) testu istotności 
różnic czy też wyborze najlepszego (też w powyższym sensie) współczynnika 
korelacji jest dokładne przyjrzenie się wynikom: ich rozkładom oraz rozrzutowi 
wyników (por. Hoaglin, Mosteller, Tukey, 2000; Loftus, 1996, 2002; Cumming, 
Finch, 2005). W modelu MRC ważne jest wychwycenie wyników wpływowych 
czy oddalonych. Moim zdaniem w pracach psychologicznych (i w nauczaniu AS 
naszych studentów) zbyt mało wagi przywiązujemy do wnikliwej analizy roz- 
rzutu wyników oraz analiz różnego formatu wykresów wyników. Z niej bowiem 
często znacznie więcej się dowiemy aniżeli z „uświęconego” p = 0,05 (sacred- 
ness of .05). 
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VII. NHST VS PRZEDZIALY UFNOSCI 


Dosé powszechne, zeby nie powiedzie¢, ze wszechobecne, w praktyce ba- 
dawczej psychologów jest odwoływanie się do strategii NHST. Celem badaczy 
jest odrzucenie, za wszelką cenę, hipotezy zerowej. Tym bardziej że polityka 
redaktorów naczelnych liczących się czasopism naukowych z zakresu psycholo- 
gii jest taka, że drukują oni jedynie te prace, w których przedstawiono badania 
prowadzące do odrzucenia Ho (por. Sterling, 1970; Daniel, 1998; też kontrower- 
sje wokół NHST przedstawione w szerszym kontekście w: Harlow, Mulaik, 
Steiger, 1997; Maxwell, 2004; Cohen, 1994/2006). Odrzucenie Ho, niejako au- 
tomatycznie, usensawnia empirycznie hipotezę alternatywną. Musimy jednak 
pamiętać, że decyzje statystyczne w strategii NHST są „zero-jedynkowe”. To 
zaś oznacza, że jeżeli — przykładowo — „nasza” różnica między dwiema średnimi 
zmiennej zależnej Y w tradycyjnie zaplanowanym i przeprowadzonym ekspery- 
mencie nie przewyższy wartości progowej statystyki testu £ przy p = 0,05, to nie 
będziemy mogli uznać hipotetycznej zmiennej X za istotną dla analizowanej 
zmiennej zależnej (w każdym bądź razie artykułu na ten temat nie opublikujemy 
w szanującym się czasopiśmie psychologicznym). Podobnie, gdy testujemy hipo- 
tezy zerowe dotyczące wartości populacyjnej: średniej, proporcji czy współ- 
czynnika korelacji. A przecież to, że „nie wyszło”, wcale nie musi oznaczać, że 
w rzeczywistości nie zachodzi powiązanie Y z X. Mogło bowiem być i tak, że 
badanie zostało źle zaplanowane albo że badacz nieskutecznie kontrolował (bądź 
wcale nie kontrolował) zmienne uboczne i zakłócające. Gdy zaś okaże się, że 
jednak „wyszło” (p<0,05!), to i tak nic nie wiemy o rzeczywistej wartości popu- 
lacyjnej testowanej różnicy między średnimi czy wartości populacyjnej średniej. 

Bezrefleksyjne posługiwanie się testami istotności sprawia, że każdą, nawet 
bardzo małą różnicę między grupami można uznać za istotną statystycznie na 
odpowiednio wysokim poziomie istotności p, gdy tylko próba będzie dostatecz- 
nie duża. Pouczające jest to, co zrobili Meehl i Lykken (za: Cohen, 1994/2006, 
s. 110): 


[...] Meehl i Lykken sporządzili tablice kontyngencji dla 15 zmiennych i próby li- 
czącej 57 000 studentów szkół ponadpodstawowych, uwzględniając zawód i wy- 
kształcenie ojca i matki, liczbę rodzeństwa, płeć, kolejność urodzeń, plany dotyczące 
dalszej edukacji, postawę rodziców wobec szkoły, lubienie szkoły, wybór szkoły, 
plany zawodowe na najbliższe dziesięć lat, preferencje religijne, sposób spędzania 
wolnego czasu i organizacje szkoły. Wszystkie ze 105 korelacji chi-kwadrat utwo- 
rzonych przez skombinowanie zmiennych metodą „każda z każdą” okazały się istot- 
ne, przy tym 96% spośród nich było istotnych na poziomie p<0,000001 [...]. 


CO TO ZNACZY, ZE... 29 


Ten sam problem podnidst William L. Hays (1973, s. 424), ktory jeden z pa- 
ragrafów swojego obszernego podręcznika statystyki zatytułował: „Can a sample 
size be too large?” Napisał w nim: „Trivial associations may well show up as 
significant results when the sample size is very large”. 

Do tego problemu z opieraniem wniosków badawczych jedynie na wielkości 
p wrócimy w następnym punkcie. 

Lepsza, dająca bardziej wnikliwy wgląd w rzeczywistość, jest strategia 
przedziałów ufności, która doprowadza badacza do wyznaczenia przedziału 
wartości o określonej szerokości, który obejmuje szacowaną wartość popula- 
cyjną (różnic czy parametrów). Owa szerokość przedziału zależy od poziomu 
ufności badacza co do tego, że skonstruowany przedział rzeczywiście pokrywa 
nieznaną wartość populacyjną. I tak, przy szerokim przedziale wartości będzie- 
my mogli z większą pewnością (np. P = 99,9%) orzekać, że dana wartość leży 
w tym przedziale wartości, ale nasze ustalenia będą mało precyzyjne. Z kolei 
chcąc uzyskać większą precyzję oszacowania, będziemy musieli skonstruować 
przedział węższy, ale poziom ufności, że tak jest, będzie niższy (P = 90%). Za- 
pewne musimy poszukać owego złotego środka, gdy przy odpowiadającej nam 
precyzji przedziału (co do jego szerokości) uzyskamy zadowalający nas poziom 
ufności — przy czym niekoniecznie musi to być poziom: P = 95%. Musimy pa- 
miętać, że dokonując szacowania, z określonym poziomem ufności (np. 95%), 
nieznanej wartości populacyjnej, na przykład średniej 4, nie zmieniamy wartości 
populacyjnej parametru średniej, zmienia się jedynie, z próby na próbę (co do 
wartości jego granic), przedział ufności. 

Znacznie więcej badacz dowie się z przedziału ufności (zobaczy granice, 
które obejmują szacowaną wartość danego parametru — przy, rzecz jasna, ak- 
ceptowaniu określonego poziomu ufności) aniżeli z decyzji nakazującej odrzu- 
cenie hipotezy zerowej. Nawet gdy w ślad za nią pójdzie obliczenie wartości 
wskaźnika ES. Dlatego też współcześnie zaleca się, także dla wskaźników ES, 
aby podawać charakterystyki przedziałów ufności (APA, 2010, s. 34; Wilkinson 
i Task Force on Statistical Inference, 1999; JARS, 2008; jak to robić i gdzie 
o tym przeczytać: Hedges, Olkin, 1985; Grissom, Kim, 2005; Thompson, 2007; 
Sun, Pan, Wang, 2010). Oddajmy jeszcze głos J. Cohenowi, którego dwie przy- 
wołane tu prace (por. Cohen, 1990/2006, 1994/2006), obiegły, bez przesady, 
cały psychologiczny świat. Odnosząc się krytycznie do strategii NHST, w punk- 
cie „A więc co robić?” (Cohen, 1990/2006, s. 114) pisał: „[...] moja rada dla 
badaczy jest więc taka, żeby rutynowo podawali oni wielkość efektu w formie 
przedziałów ufności”. To zaś, że tak niechętnie badacze zamieszczali informacje 
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o przedziałach ufności”, Cohen tłumaczył tym, że przedziały są „tak ktopotliwie 
szerokie”! I trudno się z nim nie zgodzić. 


VIII. P VS ES 
— JAK MIERZYĆ ISTOTNOŚĆ ZMIENNEJ X DLA ZMIENNEJ Y? 


Od wielu już lat psychologowie (i nie jest ich bynajmniej niewielu!) mylą 
pojęcie istotności statystycznej, wyrażane poziomem istotności statystycznej 
(p; dawniej mówiło się o poziomie a) z pojęciem istotności zmiennej X dla 
zmiennej Y. Uważają oni bowiem, że wysoki poziom istotności statystycznej 
(np. p<0,00001) świadczy o równie wysokiej istotności danej zmiennej X dla 
danej zmiennej Y. Nic bardziej mylnego. Utożsamiają zatem istotność zmiennej 
z prawdopodobieństwem popełnienia błędu I” rodzaju (odrzucenie Hy, gdy jest 
ona de facto prawdziwa). Sam spotkałem się w trakcie opiniowania jakiejś pracy 
doktorskiej z taką oto sytuacją. Autor (a może autorka) tej pracy posłużył się 
modelem ANOVA i uzyskał wysokie wartości p. W recenzji poprosiłem o wyli- 
czenie wartości wskaźników 0”. Odpowiadając na pytania recenzentów, pominął 
on moją prośbę. Po obronie, w sytuacji już „rozluźnionej”, zapytałem go: a co ze 
wskaźnikami omega-kwadrat? Usłyszałem następującą odpowiedź: ,,policzytem, 
ale wyszły tak niskie wartości, że promotor doradził mi, abym ich nie podawał, 
bo to osłabiłoby wnioski”. Ja zaś pomyślałem, że „osłabiłoby” spektakularność 
obrony. Chciałbym też zauważyć, że w badaniach ankietowych (z reguły prowa- 
dzonych na bardzo licznych próbach) mamy na ogół do czynienia z wysokimi 
(lepszymi od p = 0,001!) poziomami, tak rozumianej, istotności analizowanych 
predyktorów. 

Jeżeli nie p, to co? We współczesnej psychologii (ale nie tylko) istotność 
zmiennej X dla Y operacjonalizowana jest poprzez różnorakie wskaźniki ES. 
Jest to powszechna, i zalecana (por. Kirk, 2001; także przygotowany na zlecenie 
APA przez Wilkinsona i jego zespół roboczy raport: Wilkinson i Task Force on 
Statistical Inference, 1999) praktyka badawcza i publikacyjna. 

Od czasu pierwszych prac Jacoba Cohena (por. 1969, 1988, 1990/2006, 
1994/2006; też: Kirk, 1996; zob. ten problem w perspektywie historycznej: Hu- 


* Cohen pisał te słowa w 1990 roku; od tego czasu nastawienie psychologów uległo zmianie 
(ale nie w Polsce), m.in. za sprawą raportu Wilkinsona i współautorów oraz standardów publika- 
cyjnych APA (2001, 2010). 

10 Rozumienie jak np. u Hornowskiej (1989). 
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berty, 2002) wymagania publikacyjne światowych czasopism psychologicznych 
są takie, że nie będzie publikowany artykuł, w którym jego autor nie przedstawi 
wartości wskaźników ES, a poprzestanie jedynie na podaniu wartości statystyki 
testowej oraz poziomu istotności statystycznej p. ES są we współczesnych psy- 
chologicznych pracach empirycznych wszechobecne. Niestety, te standardy pu- 
blikacyjne w zakresie AS, narzucone wpierw przez wyżej cytowany raport ze- 
społu ekspertów koordynowanego przez Lelanda Wilkinsona'', a potem zaakcep- 
towane przez APA, która wprowadziła je do dwóch ostatnich wydań swojego 
Publication manual... (APA, 2001, 2010), nie znalazły oddźwięku w zaleceniach 
dla autorów, formułowanych przez redaktorów naczelnych najlepszych polskich 
czasopism psychologicznych (chociaż znalazły się w polskich opracowaniach 
podręcznikowych — np. Bedyńska, Brzezicka, 2007; Francuz, Mackiewicz, 2005; 
Brzeziński, 2008). A szkoda. Szkoda też i dlatego, że te artykuły skazane są na 
swoisty „niebyt”, gdyż nie wejdą do różnych współcześnie poprowadzonych 
metaanaliz, które „żywią się” danymi o wartościach wskaźników ES. Zwracali 
już na to uwagę B. M. Kingi E. W. Minium (2009), którzy pisząc o metanalizie, 
podkreślali, iż: 


[...] Metaanalizy nie przeprowadza się po przeczytaniu streszczeń albo rozdziałów 
artykułów badawczych zawierających wnioski. Dokonuje się jej poprzez wyodręb- 
nienie z analizowanych prac danych oraz ich skumulowanie. I w tym tkwi właśnie 
cały problem. W tekstach przedstawiających wyniki badań rzadko można znaleźć 
wielkość efektu [...] i trzeba go szacować, często na podstawie nieadekwatnie po- 
danego poziomu istotności (s. 357). 


Jak tedy postępować w tradycyjnym modelu NHST? Odwołam się do ulu- 
bionego modelu eksperymentalnego ANOVA. Studentom (doktorantom) tak mó- 
wię: jeżeli planuje się przeprowadzenie badania eksperymentalnego wykraczają- 
cego poza tradycją uświęcone porównanie dwóch grup (eksperymentalnej i kon- 
trolnej) i sięga po zaawansowane plany eksperymentalne ANOVA, to powinno 
się uwzględnić wykonanie następujących kroków: 

(1) tradycyjne „obwąchiwanie nieznanego terenu”, albo inaczej — typowe ba- 
dania eksploracyjne: testowanie, za pomocą testu F, hipotez zerowych dotyczą- 
cych efektów głównych poszczególnych czynników i w przypadku odrzucenia Ho 


Il Może jednak warto o tym wspomnieć, że inspiracją dla prac zespołu Wilkinsona była 
słynna praca Jacoba Cohena: Ziemia jest okrągła (p<0,05), którą udostępniliśmy czytelnikowi 
polskiemu (por. Cohen, 1994/2006). Warto do niej, od czasu do czasu, zaglądać (a także do 
drugiego, równie słynnego artykułu Cohena (1990/2006): O tym, czego się nauczyłem (jak dotąd). 
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na danym p (powiedzmy, ze 0,05 — zwracam uwage, ze czasami dobrym wybo- 
rem — zwłaszcza gdy eksplorujemy naprawdę nieznany teren — jest p = 0,10!); 

(2a) sięgnięcie po jakiś test wielokrotnych porównań typu a posteriori/post 
hoc (np. popularny i mało konserwatywny test HSD Tukeya z poprawką Bonfer- 
roniego) albo 

(2b) przeprowadzenie testów a priorilporównań zaplanowanych (inaczej 
zwanych kontrastami), gdy mamy precyzyjnie sformułowane (co do treści i ich 
kierunku) hipotezy (wyprowadzone z teorii!) dotyczące tylko określonych po- 
równań, a nie porównań każdej średniej z każdą; takie postępowanie jest zale- 
cane chociażby przez Rosenthala, Rosnowa i Rubina (2000), Sosnowskiego 
(2004) czy przez Wilkinsona i Task Force on Statistical Inference (1999); 

(3) gdy stwierdza się (ANOVA dwu- i więcej czynnikowa) wystąpienie 
efektów interakcyjnych, przeprowadzenie analiz efektów prostych; 

(4) obliczenie wielkości ES (zalecam obliczanie wskaźnika omega-kwadrat 
(©), który daje bardziej wiarygodną ocenę wariancji Y tłumaczonej przez jakiś 
czynnik, czy interakcję czynników aniżeli wskaźnik eta-kwadrat (17) uwzględ- 
niony w pakiecie SPSS — por. Hays, 1973; Brzeziński, Stachowski, 1984; Brze- 
ziński, 1983, 2008; także: Vaughan, Corballis, 1969; Dodd, Schultz, 1973; dla 
użytkowników SPSS: por. Field, 2009, pkt 10.5, 12.6). 

Rzecz jasna, to tylko ogólny zarys AS odnoszący się do — dziś to też już kla- 
syka! — eksperymentowania odwołującego się do modelu ANOVA. Bardziej zło- 
żone — chociaż w sensie ideowym podobne — będzie postępowanie eksperymen- 
talne odwołujące się do modelu MANOVA; tu także analiza powinna kończyć 
się obliczeniem wielkości ES (w kwestii ES w MANOVA — por. Tatsuoka, 1993). 
Niestety, w większości prac drukowanych w polskich czasopismach i książkach 
ich autorzy nie wykraczają poza wartości F i p (rzadziej: wartości 77 gdyż, przy- 
pominam, dostępne rutynowo w SPSS!). 

Także odwołanie się do testów nieparametrycznych powinno się kończyć 
obliczeniem wartości ES — np. test Kruskala-Wallisa > wskaźnik EF’, test Fried- 
mana > wskażnik W, test Manna-Whitneya > r,-Glassa, test Wilcoxona > 
rangowy współczynnik korelacji dwuseryjnej dla par dopasowanych 7, itd. 

A gdy sięgamy po test £? Wówczas mamy w dyspozycji wskaźniki (przypa- 
dek danych niezależnych): 0”, d Cohena, g Hedgesa, A Glassa albo współczyn- 
nik korelacji punktowo-dwuseryjnej Poi. 


12 Nawiasem mówiąc, wskaźniki ES: d, g, r są wzajemnie przekształcalne — jeden na drugi 
(por. Rosenthal, Rosnow, Rubin, 2000, s. 12; także: Durlak, 2009). 
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ES mają dziś bardzo bogatą literaturę. W dyspozycji badaczy znajduje się co 
najmniej kilkadziesiąt różnych wskaźników, które nie dają tych samych wartości 
dla tego samego zbioru danych. Mogę, na początek, polecić dobre, praktyczne 
opracowania autorstwa Roberta Rosenthala, Ralpha L. Rosnowa i Donalda B. 
Rubina (Rosenthal, Rosnow, Rubin, 2000; także: Rosnow, Rosenthal, 2003, 
2009) oraz Roberta J. Grissoma i Johna J. Kima (2005). W każdym bądź razie, 
co chciałbym podkreślić, nie można wypuścić w świat pracy, w której nie będą 
podane wartości ES! 


IX. JEDNOZMIENNOWA AS 
VS WIELOZMIENNOWA AS 


Wszystko zaczęło się, jak dobrze wiemy, od analiz jednozmiennowych, jed- 
nowymiarowych (w sensie: jedna zmienna zależna), ale już w latach trzydzie- 
stych ubiegłego wieku stworzono teoretyczne podstawy analiz wielozmienno- 
wych, wielowymiarowych (w sensie: wiele zmiennych zależnych), które dziś 
stosujemy. Tak jak uzyskano nową jakość po przejściu od modelu testu £ do mo- 
delu ANOVA i związanych z nim testów porównań wielokrotnych (a priori/ 
porównania zaplanowane i a posteriori/post-hoc), tak uzyskano kolejną nową 
wartość po przejściu od modelu ANOVA do modelu MANOVA. Przeszkodą 
w upowszechnieniu podejścia wielozmiennowego (np. MANOVA czy model 
korelacji kanonicznej) były trudności obliczeniowe. Postęp w konstrukcji szyb- 
kich komputerów i dostarczenie ich na biurka badaczy, a także rozwój pakietów 
statystycznych SPSS, SAS czy STATA — to wszystko miało bardzo duży wpływ 
na upowszechnienie tych zaawansowanych teoretycznie i obliczeniowo metod 
statystycznych. Dziś każdy student może w swoim notebooku przeprowadzić 
skomplikowane analizy statystyczne. Problem tylko w tym, aby je zrozumieć. 
Niewiele jest w polskich czasopismach sensownych (odpowiedzialnych) — które 
nie pełnią ,,dekoracyjnej” roli — analiz wielozmiennowych. 

Czy mamy z tego zysk poznawczy? Niewątpliwie tak. I to znaczny. Tak jak 
ANOVA umożliwiła, w jednym badaniu, ocenę wpływu wielu zmiennych nieza- 
leżnych (a zwłaszcza ich interakcji) na zmienną zależną, tak MANOVA pozwo- 
liła przezwyciężyć kolejne ograniczenie. Oto psycholog może, zamiast kilku eks- 
perymentów ANOVA (dla każdej zmiennej zależnej odrębnie), przeprowadzić 
jeden eksperyment MANOVA, w którym posłuży się dwiema lub większą liczbą 
zmiennych zależnych składających się na jedną syntetyczną zmienną zależną. 
MANOVA także zastępuje klasyczny model ANOVA z powtarzaniem pomiarów 
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zmiennej Y (por. Weinfurt, 1998, s. 269-271; Stevens, 2002, rozdz. 13: „Repeated 
measures analysis”, s. 492-557). Myślę, ze model MANOVA w dużym stopniu 
zastąpi w projektowaniu eksperymentów model ANOVA, gdyż dostarcza bar- 
dziej wnikliwych rezultatów. Podobnie z modelem MRC, który też dostał roz- 
szerzony po stronie zmiennej zależnej do modelu korelacji kanonicznej. 

Statystyka wielowymiarowa (multivariate statistics) to obszerny, stale się 
powiększający dział statystyki. Różne problemy techniczne związane z tą grupą 
metod wymagają jednak odrębnego opracowania. Dobre wprowadzenie w tę 
problematykę daje przywoływany już podręcznik Tabachnick i Fidell (2001). 
Także polscy psychologowie zadbali o propagowanie zaawansowanych metod 
statystycznych, w tym: MANOVA, MRC, analiza dyskryminacyjna, model re- 
gresji logistycznej, poświęcając tej tematyce specjalny numer Psychologii Spo- 
łecznej (por. Sosnowski, 2010). 


X. KILKA MYŚLI „NA KONIEC” 


Po pierwsze, AS jeżeli ma być sensownie przeprowadzona, to musi być pod- 
porządkowana celowi pracy (artykuł, monografia, referat, poster), w której autor 
prezentuje wyniki przeprowadzonych badań empirycznych. Te zaś służą spraw- 
dzeniu empirycznemu (pozytywnemu: konfirmacja czy negatywnemu: falsyfi- 
kacja) wymyślonych (tak, wymyślonych!) przez psychologa hipotez. 

Po drugie, „sensowność”, od której zacząłem pisanie podsumowania, zwią- 
zana jest przede wszystkim z osadzeniem zmiennych teoretycznych w określo- 
nym kontekście teoretycznym. To on „podpowiada” badaczowi, jak zopera- 
cjonalizować zmienne (pierwsza okazja do odwołania się do kompetencji bada- 
cza w zakresie AS) i jaki model statystyczny będzie adekwatny do testowanych 
hipotez (druga okazja do odwołania się do kompetencji badacza w zakresie AS). 

Po trzecie, jeżeli sprowadzić treść hipotezy do ustalenia siły oddziaływania 
(istotności) zmiennej niezależnej na określoną zmienną zależną (przy założeniu 
określonego „kształtu” owej zależności), to kluczowy w łańcuchu postępowania 
dowodowego badacza będzie wybór odpowiedniego (z wielu!) wskaźnika wiel- 
kości efektu (ES). To dzięki tej wartości badanie ma tak naprawdę szansę dołą- 
czenia do innych badań przeprowadzonych w świecie dzięki wykonanej przez 
kogoś metanalizie. Skupianie uwagi na poziomie istotności p, a nie na ES może 
tę szansę zniweczyć. 

Po czwarte, zanim jednak sięgniemy po mniej lub bardziej wyrafinowane 
metody AS (rozpiętość od testu Y po model równań strukturalnych), warto sko- 
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rzystać z rad przywołanego wyżej Johna Tukeya i bardzo wnikliwie przyjrzeć się 
rozkładom wyników. 

Po piąte, ważne jest skupienie się na strategii przedziałów ufności. 

Po szóste, cechą charakterystyczną badania naukowego jest jego powtarzal- 
ność. Dojrzała nauka odwołuje się do procedury replikacji badań. Taki zabieg 
ma też na celu uniknięcie zbyt pochopnego wnioskowania (w badaniu mogły 
wystąpić niezauważone błędy) oraz eliminowanie ze społeczności badaczy oszu- 
stów (por. dyskutowany wyżej przypadek Diederika Stapela). 

Po siódme, AS to tylko narzędzie. Jak każde, może być poprawnie wykorzy- 
stane i przyczynić się do wzbogacenia wiedzy psychologicznej. Ale może też 
wyprowadzić badacza na manowce poznania naukowego i być źródłem artefak- 
tów (że odwołam się do tytułu znanej pracy: Rosenthal i Rosnow, 2009). 


Jako czynni psychologowie, badacze i nauczyciele akademiccy powinniśmy 
dbać nie tylko o nasze wyniki (od nich wszak w dużej mierze zależy nasza ka- 
riera naukowa), ale także powinniśmy zadbać o edukację tych, którzy będą 
w przyszłości kontynuować nasze prace badawcze. Mówiąc inaczej, powinniśmy 
naszym studentom i doktorantom przekazywać nasze doświadczenie, formo- 
wać ich świadomość metodologiczną oraz — co nie mniej ważne — świadomość 
etyczną (por. Brzeziński, 2012). Pamiętajmy, że kształtujemy ich „sumienie 
naukowe” (Ajdukiewicz, 1965, s. 175) i że: „efektem złej nauki jest zła etyka” 
(Rosenthal, 1996). To zaś jest istotnym elementem składowym misji uniwersy- 
tetu. Nasuwa się jednak, w aktualnej pogoni za mierzalnymi efektami, pytanie: 
w jaki sposób mierzyć wielkość tego specyficznego „efektu”? 
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WHAT DOES IT MEAN 
THAT THE RESULTS OF RESEARCH CONDUCTED BY PSYCHOLOGISTS 
ARE SUBJECTED TO STATISTICAL ANALYSIS? 


Summary 


Referring to the current methodological awareness of psychologists, drawing on his own long- 
standing research and teaching experience, and inspired by works such as Cohen (1990-2006, 
1994/2006) or Wilkinson & Task Force on Statistical Inference (1999), the author addresses crucial 
problems involved in the use of methods of statistical analysis of data derived from psychological 
research. He also draws attention to the possible sources of misconduct as well as to optimal solu- 
tions, whose adoption by researchers will minimize error variance and contribute to a significant 
reduction of artifacts created. The aim of the article is also to draw attention to the possible sources 
of scientific misconduct. The author focused on the following the issues: the standard view of the 
research process, the concept of statistical analysis of data in the research process, the necessity of 
replicating research findings, the NHST vs. confidence interval opposition, the importance of de- 
termining effect size, and the usefulness of conducting multivariate analysis. 


Key words: research process, methodological awareness, effect size (ES), NHST, confidence 
intervals, replication, multivariate analysis. 


